AI作画潜力初显:概念原画、低成本素材....渗透更多领域已是必然 | AIGC系列
The following article is from 东西游戏 Author 东西游戏
本文中相关图片仅做引用
不用于商业用途,版权归版权方所有
此前,日本画师联合抵制AI作画平台的消息,让市场再度关注到AIGC在绘画领域的发展与应用情况。
近年来,围绕“AI作画”的话题时常能在网上掀起热潮。数年前的AI作品大多比较粗糙,很难一眼辨别出所作内容,讨论主要聚焦在对相关技术的展望。但最近出现的部分AI作品,已经十分精美,让大众甚至相关从业者在惊叹之余,也多出了危机感。
今年8月底,日本AI绘图工具mimic宣布将上线测试版,就遭到了大量日本画师的抵制。最终,mimic开发商Radiuss不得不在次日发表公告,推迟mimic的上线日期。
AI作画能力的大幅提升,背后是OpenAI、谷歌、百度等诸多科技公司不断研发投入,推动AI图像生成技术快速发展,并出现了如DALL-E、Imagen等广受关注的AI作画项目。
而随着AI作品在社交媒体上传播,越来越多创作者开始思考AI技术与创作的关系:在一些人眼中两者是替代关系,另一些人关心技术的法律问题,也有人正在积极响应技术进步,让AI技术加速艺术创作的效率。
如AI作画工具Midjourney创始人David Holz所言,“汽车比人类快,但并不意味着人类停止了行走。我们将AI技术视为想象力的引擎,这是一件非常积极和人性化的事情。”
目前,已有创作者将AI技术应用于游戏、动漫等领域,也有科技公司迈出更大的步子,期望加速AI图像生成技术在更广泛领域的应用。
AI作画正处于快速发展期,
已有明星项目崭露头角
总体来看,目前AI图像生成技术正处于快速发展阶段,图像生成精度与质量不断提升,令现今部分AI作品,已不弱于一些初级画师的作品。
但由于AI图像生成技术存在一定缺陷以及各类法律版权问题,AI生成图像目前还较难直接落地商用。
可以通过下面两幅图,直观感受AI图像生成技术的发展状况——
这两幅图都是AI绘制的“看向南非国旗的猫”,左图基于OpenAI在2021年1月发布的DALL-E AI系统生成,右图为今年4月OpenAI发布的DALL-E 2 生成。
Cr:OpenAI
可以看到,右图较之左图,在“猫”的图像生成效果上提升很大。但右图中,对于“南非国旗”这一物体的生成,AI依然存在认知缺陷,仅仅是抓住“南非国旗”上的颜色特征,没有任何一张图是正确描绘的。
OpenAI的一位研究员在IEEE Spectrum杂志中指出,“DALL-E不知道什么是科学……它只是试图编造出一些视觉上相似的东西,而不理解事物的含义。”
不过,即便AI图像生成技术存在种种的问题,并未妨碍市场对这一技术的热情。纵观AI图像生成技术的发展,大致分为两个阶段:
第一阶段是以生成对抗网络(GAN)机器学习框架为基础。
该技术由计算机科学家Ian Goodfellow在2014年提出,其特点是输入大量的图像训练集,让“AI生成模型”不断模仿并生成类似的图像,再由另一个“AI判别模型”来筛选出符合的图像,两个AI模型相对抗,一次达到AI生成图像的效果。
第二阶段,是以2021年OpenAI发布的 DALL-E 为开端。
DALL-E的技术特点是,在拥有更庞大的图像数据集基础上,能够根据用户输入的自然语言生成图像。自此,自然语言生成图像的AI技术,成为了AI图像生成领域的主流趋势。
在AI图像生成技术的发展过程中,海内外也出现了一些备受瞩目的独角兽公司和项目,并且深刻影响了人工绘图这一创作型行业。
例如运用GAN框架,日本科技公司Preferred Networks开发出AI生成二次元立绘、为二次元线稿上色、让二次元立绘生成简单动画等工具。
Preferred Networks如今是日本AI领域估值最高的独角兽公司。根据日本机构调研数据,截止2019年9月底,该公司的估值达到3515亿日元(约合170亿人民币)。
在国内,百度也于2021年12月推出了自研的文心ERNIE-ViLG文生图模型,能根据用户输入的自然语言让AI生成符合描述的图像。
在文心大模型的网站上,即便是输入“汉服少女,最后的晚餐”这类怪诞的描述,AI也能生成一幅具有创意的作品。
Cr:百度 文心
此外,也有跨国产学研合作的AI作画项目,这进一步拓展了AI图像生成技术的应用范围。
例如2021年11月,北京大学与微软亚研院联合发布“女娲”模型,旨在从输入的文本、图像或视频来生成图像和视频。不只是文字生成图片,女娲还拥有草图生成图像和视频、图像补全等多种功能。
简单来说,女娲可以通过一段简短的文字描述生成视频,靠几幅简略的草图生成图像或视频,补全一副图像的缺失部分。女娲将AI图像生成技术拓展到视频创作领域,但目前来看所产生的视频质量还有待提高。
发布DALL-E 2 之后,OpenAI CEO Sam Altman 在自己的博客中写道,“过去十年,人们认为AI将首先对机械性的重复劳动产生影响,然后未来某一天或许能够进行创造性的工作。但从现在看来,AI正在以相反的顺序发展。”
AI绘画争议:法律尚不明确,提高创意生产效率但是否将加剧竞争甚至替代人类
如Sam Altman所言,AI确实已经进入创造型的行业,尤其是绘画和图像行业。
从目前的发展情况来看,AI图像生成技术并不会很快对绘画和图像行业产生重大变革,但一线画师和企业高层已经出现明显的态度区隔。
首先,部分一线画师开始恐惧AI可能会在未来某天取代他们的工作。
正如mimic事件引发众多画师的集体抗议。这是因为mimic的产品特性,只要上传30张插图,mimic就可以根据所上传插图生成相同风格的插画。
画师们认为受到了来自AI的剽窃——AI可以复刻画师的风格,而且生成插图的效率是人类的无数倍。画师担忧AI图像生成技术的滥用,将导致自身的努力和价值被无情剥夺。
在mimic的推特下面,有一位日本画师留言:“我觉得技术很了不起,但肯定会被滥用......我不希望别人轻易夺走我努力提高的绘画技巧。”
企业端客户则主要有三种代表性观点:第一,在AI技术大规模商业化之前,还有许多法律问题亟待解决;第二,AI技术将加剧行业竞争;第三,AI并不会取代人类,人类画师依然有独特优势。
目前,关于AI作品的版权归属问题,AI技术提供方的说辞都比较暧昧。以OpenAI为例,他们允许用户拥有由DALL-E创造图像商业化的全部使用权,包括重印、销售和商品化等权利,而所生成图像的所有权是不明晰的。
OpenAI官方仅发表声明称,他们拥有“原始图像”的所有权,也就是那些用于AI训练的图像。
麦肯锡咨询公司的机器学习和人工智能业务负责人Bradford Newman对此评价,“谁拥有DALL-E生成的图像”这一问题的答案远未明确,存在的法律风险是不可避免的。
若是抛开法律问题不谈,AI技术无疑会大幅提高图像生产效率,进而可能导致行业竞争加剧。
数字营销公司Rank Secure的CEO 曾公开谈到,AI技术的加入能够让小型营销机构更好控制成本,进而提高对大型公司的竞争力。但缺点是,创意领域的竞争加剧,会压低创意工作和营销的价格。
而对于AI与人类之争的话题,theaoi插画家协会CEO Rachel Hill认为,“AI技术可能会吸引那些想要快速获得低价插画的艺术总监”。但她仍然认为,人类相较于AI有巨大优势,她指出人类插画师能够帮助客户创立最初的概念,而不仅仅是最终的图像。
最后,从OpenAI等AI技术提供方的角度来看,他们认为AI作画最终是成为人类画师的一种生产工具,而非是画师的替代品。
OpenAI的发言人,将DALL-E与Photoshop这类图像编辑软件作比较,他认为AI技术是设计师和摄影师创作过程中的工具,将允许更多的人参与到创意行业中,也希望能看到艺术家用AI技术来创造更多的艺术类型。
AI作画潜力初显:概念原画、低成本素材、平台推动AI图像生成技术渗透更多领域
当AI图像生成技术在法律问题和外界争议中发展时,已经有一些创作者认识到AI技术对人类创作提升的潜力,也有一些AI技术提供方,开始初步推广AI作画以获得更广泛的市场认可。
对于创作者而言,当下AI生成图像或许很难作为最终的产品输出,但是当创作者已经有一个概念雏形时,AI特有的强大发散性,可以帮助创作者快速迭代自己的创作想法。
Timur Ozdoev先设想了一个类人型的怪物,它是来自于另一个空间的投影,游戏中这只怪物的概念是“来自虚空的人”。
在这一概念基础上,Timur Ozdoev不断调整合适的描述词,运用Midjourney生成结果,在凌乱无序的AI作品中,选出满足需求的概念原画。
无独有偶,在推特上有一位名为“Simon Willison”的创作者,他在脑海中有了一个“浣熊劫匪”的电子游戏初始概念。
在DALL-E 2上,他将“浣熊劫匪”的文字描述输入,最终他得到一幅具有想象空间的概念原画——冰天雪地的夜晚,一群浣熊在街上游荡。
除了生成概念原画,也有平台和创作者尝试让AI生产可被直接利用的素材。
Crypko平台是该公司专门面向那些“绘画时间和技能有限”的用户,能为那些希望节省设计时间的插画师,游戏设计师和其他的专业人士提供帮助。
不过,AI作品的质量参差不齐,往往需要经过大量筛选才能挑选出合适的作品。
近期,有一位日本游戏开发者,完全以Midjourney生成的AI生成图像作为游戏美术素材,制作了一款流程简短的横向卷轴射击游戏《Shoon》。
该游戏开发者Nao_U表示,他仅在三天内就完成该游戏的开发,AI技术为该游戏创建了所有的飞行器和怪物素材。
但根据Nao_U的说法,AI生产美术素材的速度很快,只是局限性在于,是否能够得到想要的素材是一个运气问题,并且AI无法生产俯视角度的图像。
当然,目前AI图像生成技术在创作领域的应用规模依然较小。也开始有部分AI技术提供方,期望能够推动AI作画在更广泛领域的渗透。这一方向上,已有不少国内厂商代表。
例如百度开发文心ERNIE-ViLG文生图模型,不只想成为一个让普通用户展示个性的工具,也希望借此挖掘更多AIGC的商业价值,和推广AIGC的应用范围。包括艺术创作、虚拟现实、图像编辑、AI辅助设计、虚拟数字人等领域,都将是未来ERNIE-ViLG模型的应用范围。
百度旗下数字人“度晓晓”,在今年年初运用ERNIE-ViLG模型,创作“无界”系列画作,并在百度APP线上售卖,以此向市场传达AI作画的上限。
此外,根据公开消息,百度也主动开放ERNIE-ViLG模型的API接口,让这项技术得以进一步传播。国内智源研究院推出的悟道AI开放平台,也是类似的思路。向中小企业开放AI作画等API接口,希望通过降低AIGC的应用门槛,推动AI应用规模化和产业化。
反观OpenAI的DALL-E 2 和谷歌的Imagen AI系统,主要出于对AI图像生成在法律问题上的考量,并未直接开放API接口,但DALL-E 2也已经在儿童图书插图和新闻通讯等领域,允许AI作画的商业化,开始逐步实现自己的商业目标。